5. Güncel Leaderboard Analizi: MMTEB (Multilingual, v2)

Güncel MMTEB (Multilingual, v2) leaderboard'unda toplam 399 model listelenmiş olup, sıralama Borda rank ile belirlenmiştir. Bu bölüm, leaderboard'un genel yapısını, üst sıraları ve görev türleri bazındaki performans örüntülerini analiz etmektedir.

5.1 Genel Sıralama — Top 20

Aşağıdaki tablo, leaderboard'un üst 20 modelini teknik özellikleri ve tüm görev türü skorları ile birlikte sunmaktadır.

Top 20 - Özet (okunabilir)

Rank (Borda)	Model	Zero-shot	Active (B)	Total (B)	Dim	Max Tok	Mean(Task)	Mean(TT)
1	harrier-oss-v1-27b	78%	25.599	27.009	5376	131072	74.27	64.2
2	KaLM-Embedding-Gemma3-12B-2511	73%	10.759	11.766	3840	32768	72.32	62.51
3	llama-embed-nemotron-8b	99%	6.98	7.505	4096	32768	69.46	61.09
4	Qwen3-Embedding-8B	99%	6.946	7.567	4096	32768	70.58	61.69
5	gemini-embedding-001	99%			3072	2048	68.37	59.59
6	Qwen3-Embedding-4B	99%	3.634	4.022	2560	32768	69.45	60.86
7	Octen-Embedding-8B	99%	6.946	7.567	4096	32768	67.84	60.28
8	F2LLM-v2-14B	88%	13.214	13.99	5120	40960	68.74	59.45
9	F2LLM-v2-8B	88%	6.947	7.568	4096	40960	68.09	58.99
10	harrier-oss-v1-0.6b	78%	0.44	0.596	1024	32768	69.01	59.0
11	Seed1.6-embedding-1215	89%			2048	32768	70.26	61.34
12	F2LLM-v2-4B	88%	3.634	4.022	2560	40960	67.06	58.25
13	jina-embeddings-v5-text-small	⚠️ NA	0.44	0.596	1024	32768	67.0	58.9
14	F2LLM-v2-1.7B	88%	1.41	1.721	2048	40960	65.21	56.78
15	harrier-oss-v1-270m	78%	0.1	0.268	640	32768	66.55	56.9
16	Qwen3-Embedding-0.6B	99%	0.44	0.596	1024	32768	64.34	56.01
17	jina-embeddings-v5-text-nano	⚠️ NA	0.113	0.212	768	8192	65.52	57.66
18	gte-Qwen2-7B-instruct	⚠️ NA	6.526	7.069	3584	32768	62.51	55.93
19	Linq-Embed-Mistral	99%	6.98	7.111	4096	32768	61.47	54.14
20	multilingual-e5-large-instruct	99%	0.304	0.56	1024	514	63.22	55.08

Top 20 - Retrieval / Similarity / Reranking

Rank (Borda)	Model	Bitext	Retrieval	STS	Reranking
1	harrier-oss-v1-27b	86.02	78.27	79.99	67.35
2	KaLM-Embedding-Gemma3-12B-2511	83.76	75.66	79.02	67.27
3	llama-embed-nemotron-8b	81.72	68.69	79.41	67.78
4	Qwen3-Embedding-8B	80.89	70.88	81.08	65.63
5	gemini-embedding-001	79.28	67.71	79.4	65.58
6	Qwen3-Embedding-4B	79.36	69.6	80.86	65.08
7	Octen-Embedding-8B	80.35	71.61	81.27	67.64
8	F2LLM-v2-14B	77.15	66.5	76.97	70.49
9	F2LLM-v2-8B	75.96	66.15	76.47	70.34
10	harrier-oss-v1-0.6b	82.85	70.75	77.09	63.16
11	Seed1.6-embedding-1215	78.68	66.05	75.92	66.24
12	F2LLM-v2-4B	74.49	64.84	75.91	69.38
13	jina-embeddings-v5-text-small	69.71	64.88	78.85	65.66
14	F2LLM-v2-1.7B	73.18	61.97	75.77	67.17
15	harrier-oss-v1-270m	81.54	66.38	75.35	61.9
16	Qwen3-Embedding-0.6B	72.23	64.65	76.17	61.41
17	jina-embeddings-v5-text-nano	67.7	63.26	78.17	64.63
18	gte-Qwen2-7B-instruct	73.92	60.08	73.98	65.55
19	Linq-Embed-Mistral	70.34	58.69	74.86	64.37
20	multilingual-e5-large-instruct	80.13	57.12	76.81	62.61

Top 20 - Classification / Clustering / Instruction

Rank (Borda)	Model	Classification	Multilabel	PairC	Clustering	Instr. Rer.
1	harrier-oss-v1-27b	79.95	36.44	85.44	58.93	5.39
2	KaLM-Embedding-Gemma3-12B-2511	77.88	33.03	84.73	55.77	5.49
3	llama-embed-nemotron-8b	73.21	29.86	83.97	54.35	10.82
4	Qwen3-Embedding-8B	74.0	28.66	86.4	57.65	10.06
5	gemini-embedding-001	71.82	29.16	83.63	54.59	5.18
6	Qwen3-Embedding-4B	72.33	26.77	85.05	57.15	11.56
7	Octen-Embedding-8B	66.68	25.23	85.12	55.68	8.9
8	F2LLM-v2-14B	73.0	28.14	81.26	60.91	0.62
9	F2LLM-v2-8B	71.93	27.38	81.18	60.62	0.85
10	harrier-oss-v1-0.6b	73.88	26.37	82.07	54.0	0.81
11	Seed1.6-embedding-1215	76.75	46.16	85.5	56.78	-0.02
12	F2LLM-v2-4B	70.73	26.58	80.51	59.53	2.25
13	jina-embeddings-v5-text-small	71.32	41.97	82.93	53.41	1.35
14	F2LLM-v2-1.7B	67.68	26.04	79.87	58.77	0.56
15	harrier-oss-v1-270m	70.84	23.97	80.12	52.51	-0.47
16	Qwen3-Embedding-0.6B	66.83	24.59	80.83	52.33	5.09
17	jina-embeddings-v5-text-nano	69.18	41.31	81.94	52.73	0.05
18	gte-Qwen2-7B-instruct	61.55	25.48	85.13	52.77	4.94
19	Linq-Embed-Mistral	62.24	24.77	80.43	50.6	0.94
20	multilingual-e5-large-instruct	64.94	22.91	80.86	50.75	-0.4

5.2 Görev Türleri Bazında Performans Örüntüleri

Tam leaderboard verisi incelendiğinde, görev türleri arasında çarpıcı performans farklılıkları ortaya çıkmaktadır:

Instruction Reranking: Tüm modellerin zayıf kaldığı görev türü. En iyi model olan Qwen3-Embedding-4B bile bu kategoride yalnızca 11.56 skora ulaşabilmektedir. Modellerin büyük çoğunluğu 0 civarında veya negatif skorlar almaktadır.
Multilabel Classification: Düşük genel performans. Top 20'deki modellerin çoğu bu kategoride 25-46 aralığında skor almaktadır. Seed1.6-embedding-1215 (46.16) ve jina-embeddings-v5 serisi (~42) nispeten öne çıkan istisnalardır.
Pair Classification ve Retrieval: Modelleri en iyi ayıran görevler. Pair Classification'da skorlar 80-86 aralığında yoğunlaşırken, Retrieval'da 57-78 gibi geniş bir aralık gözlemlenmektedir.
STS: En dar skor aralığı. Top 20 modellerin STS skorları 73-81 aralığında sıkışmış durumdadır.
Clustering: F2LLM ailesi bu görevde sürpriz biçimde güçlüdür (örn. F2LLM-v2-14B 60.91, F2LLM-v2-8B 60.62).

5.3 Model Aileleri ve Eğilimler

Harrier (Microsoft): 27B model genel birinci; 0.6B ve 270M gibi kompakt sürümler de boyutlarına göre olağanüstü performans sergiliyor.
Qwen3 Embedding (Alibaba): 8B/4B/0.6B segmentlerinde güçlü; 8B model STS'de en yüksek skoru alıyor, 4B model Instruction Reranking'de öne çıkıyor.
F2LLM-v2 (Codefuse-AI): Clustering'de güçlü, Instruction Reranking'de zayıf; görev türleri arasında uzmanlaşma işareti.
Gemini Embedding (Google): Kapalı API; Borda rank'te üst sıralarda, ancak 2.048 token bağlam penceresi kısıt.
Jina Embeddings v5 (Jina AI): Small/nano modelleri; özellikle Multilabel Classification'da öne çıkıyor.

5.4 Leaderboard'un Uzun Kuyruğu (Long Tail)

399 modelin büyük çoğunluğu için tablo büyük ölçüde boştur. Yaklaşık 180. sıradan sonra modellerin çoğunda görev türü skorlarının hiçbiri raporlanmamıştır; bu modeller yalnızca model kartı bilgileriyle listelenmiş durumdadır.

Bu durumdan etkilenen örnekler:

text-embedding-3-large (OpenAI, rank 35) yalnızca 7/9 görev türünde skorlanmış; Retrieval ve Bitext Mining sütunları boş.
voyage-3 (Voyage AI, rank 60) sınırlı sayıda görev türünde değerlendirilmiş.
Cohere-embed-v4.0 (rank ~370) hiçbir görev türünde skoru yok (MMTEB değerlendirmesine girmemiş olabilir).

5.5 Snapshot'tan Çıkarılacak Ana Bulgular

Büyük modeller (8B+) genel sıralamada avantajlı; ancak kompakt Harrier ailesi boyut-performans dengesini yeniden tanımlıyor.
Borda vs Mean tutarsızlığı sistematik: Qwen3-Embedding-8B ve Seed1.6 gibi örnekler bunu gösteriyor.
Parametre sayısı ile performans arasında doğrusal ilişki yok; küçük modeller bazı büyükleri geçebiliyor.
Görev türleri arası varyans yüksek; Instruction Reranking gibi kategoriler genel ortalamayı aşağı çekebiliyor.